诸如模型可视化之类的透明度方法提供了仅输出可能会错过的信息,因为它们描述了神经网络的内部。但是,我们可以相信该模型解释反映了模型行为吗?例如,他们可以诊断出异常行为,例如后门或形状偏见吗?为了评估模型解释,如果模型与普通模型的参考集不同,我们将模型定义为异常,并且我们测试透明度方法是否为异常和正常模型分配了不同的解释。我们发现,尽管现有方法可以检测出诸如形状偏见或对抗性训练之类的鲜明异常,但他们努力识别出更微妙的异常情况,例如接受不完整数据训练的模型。此外,他们通常无法区分诱导异常行为的输入,例如包含后门触发器的图像。这些结果揭示了现有模型解释中的新盲点,这表明需要进一步开发方法。
translated by 谷歌翻译
为了了解神经网络行为,最近的作品定量比较使用规范相关分析(CCA),居中内核对准(CKA)和其他不同措施的不同网络的学习表示。不幸的是,这些广泛使用的措施往往不同意基本观察,例如只有在随机初始化中不同的深度网络都会学习类似的表示。这些分歧提出了问题:我们应该相信哪些,如果有的话,那么这些不相似措施?我们通过具体的测试提供了一个框架来解决这个问题:措施应该具有对影响功能行为的变化的敏感性,以及对没有的变化的特异性。我们通过各种功能行为量化,包括探测准确性和稳健性与分布换档,并检查变化的随机初始化和删除主组件。我们发现当前的指标表现出不同的弱点,请注意,经典基线令人惊讶地表现出令人惊讶的良好,并且突出显示所有度量都失败的设置,从而为进一步改进提供挑战。
translated by 谷歌翻译